iT邦幫忙

1

用 Azure Speech Studio x ChatGPT 幫你生逐字稿

Ben 2023-01-08 18:02:238220 瀏覽
  • 分享至 

  • xImage
  •  

用 Azure Speech Studio x ChatGPT 幫你生逐字稿

團隊草創初期,為了要拓展業務,總是需要到處跟客戶介紹自己公司的產品、服務和戰績。這種出嘴的事情,一開始一兩個人就能搞定,但隨著公司業務量越來越大,漸漸就需要找新人來幫忙出門跑業務。找來的新人不是找來就馬上能派得上用場,又不能把創辦人的知識和能力,直接複製貼上到新人的腦裡,每個人的能力也不盡相同,漸漸就會有戰力不均的問題出現。為解決這種問題,Speech-To-Text 的服務就能派上用場了,將前輩報告或者跟客戶互動時的說詞,好好錄音下來,然後轉成文字檔,就能好好拜讀,牢牢記在腦中。(再加上多拉A夢的記憶吐司,功效更是妙不可言)

接下來,介紹如果利用 Azure Speech Studio,外加 ChatGPT 做到以上效果。稍微介紹一下步驟:

1. 錄音:

基本上應該沒有什麼特別的限制,只要你能輸出錄音檔就好。

2. 用 ffmpeg 將錄音檔轉換成 WAV file

由於需要用到 Azure Speech Studio 的 即時語音轉換文字 服務,其要求上傳的錄音檔必須是 WAV file,且 Sampling rate 必須是 16kHz 或 8kHz,音訊編碼必須是 16 bit mono PCM(Pulse-code modulation)。如果懶得去思考這到底在幹什麼,最簡單的做法就是拿到錄音檔就先用 ffmpeg 轉檔。

  • 下載與安裝:
    brew install ffmpeg
    
    • Linux (Ubuntu)
    sudo apt-get install ffmpeg
    
  • 轉檔
    • -asodec: 指定音訊編碼方式,pcm_s16le 代表輸出為 PCM 16 bit。
    • -ac: 設定輸出聲道數,這邊設定為 1,即為單聲道。
    • -ar: 輸出的頻率,16000 即為 16 kHz。
ffmpeg -i <你的錄音檔> -acodec pcm_s16le -ac 1 -ar 16000 <輸出的WAV檔>.wav

3. Speech-to-text

  • 登入 Speech Studio
    • 如果沒有 Azure 帳號,可以試著申請免費帳號。點此看教學。
    • 需要建立語音服務
  • 進入 Speech Studio 之後,點選 即時語音轉換文字 (Real-Time Speech-to-text)。
  • 選擇語言:選擇自動偵測,並且選擇你要偵測的語言,最多四個。
  • 片語清單:如果有專有名詞需要特別注意,可以全部列出。詞與詞之間需要用半形的逗號隔開。
  • 上傳檔案,然後耐心等待。目前實測大約三小時的錄音檔,在一個小時左右可以完成文字輸出。
  • 也可以直接錄音,直接輸出文字,但我沒有實測過,不知道是否可以長時間輸出。考慮到可能會斷網的情況,我想先錄音再擷取文字,應該是相對安全的做法。
  • 每個月有五個小時的音訊長度可以免費轉換成文字,之後每小時的音訊收費一美元,詳情於此

4. 用 ChatGPT 幫忙潤飾、改錯字和贅字。

畢竟說話的是人,難免會有說錯話、吃螺絲還有文字癌的問題。透過 ChatGPT 就可以把從錄音檔擷取的文字變得更精練。不過,這也不是百分之百成功的,篇幅太大可能會失敗,上限是4000 個字元,最好是將上述輸出文字,切成幾個段落,一段一段請 ChatGPT 潤飾。

另外,也有可能,某一段文字贅字太多,錯字太多,或者沒有重點,ChatGPT 也有可能無法輸出,直接噴錯。

以下範例-

我說:

將以下文章潤飾,改掉錯字,剔除贅字:去做咨那個電網的或是一些供需預測的長頸這個廠御用,再就是工業區。我們是之前有企業的客戶工業區做什麼預警呢?我們預測說,未來的30分鐘,未來的一個小時工業區從電廠出去的店哦,發電廠出去的店在工業區有多少個廠商,多少的公司會用多少的能源? 那基於預期來做,有效的就是負載平衡的規劃,做到真正的削峰填谷。為什麼這件事很重要呢?因為臺灣現在在用電的這一塊。要為了確保電網是穩定的。都會有一個很重要的一件事,就是會有一些預載的那個備轉容量,就是當下可能要用50 megawatt的電能,他可能會備載容量可能是10%,你就要發55 megawatt的點,那以確保說當下的狀況或是20%啊,或者是20%就是要五使用5時要發60,你要確保就是當下大家都可以用,不過有些土波的狀況,那這個過程中呢?會那些備轉的容量的電力? 呃,其實因為量太大,它其實存不下來,他就會無形中的流失掉就變熱,能就散失了。大家在過程中其實很浪費的一件事情,如果我們可以有效地去做一些不宅的供需預測。那在負載平衡上面呢,我們就可以無形中節約,非常非常多的能源。

以下是我和 ChatGPT 的互動:

只要覺得 ChatGPT 話還沒說完,就打"繼續",讓他繼續說下去

另外,也有可能 ChatGPT 以英文回答,那就把英文內容再翻譯過一次,效果也是一樣的。


以上,半自動化的流程,應該就可以節省不少打逐字稿的時間,還能擷取強者腦中的想法,有需要的人,可以斟酌參考使用。


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言